Sélection supervisée d'instances : une approche descriptive
نویسندگان
چکیده
Résumé. La classification suivant le plus proche voisin est une règle simple et performante. Sa mise en oeuvre pratique nécessite, tant pour des raisons de coût de calcul que de robustesse, de sélectionner les instances à conserver. La partition de Voronoi induite par les prototypes constitue la structure sous-jacente à cette règle. Dans cet article, on introduit un critère descriptif d’évaluation d’une telle partition, quantifiant le compromis entre nombre de cellules et discrimination de la variable cible entre les cellules. Une heuristique d’optimisation est proposée, tirant partie des propriétés des partitions de Voronoi et du critère. La méthode obtenue est comparée avec les standards sur une vingtaine de jeux de données de l’UCI. Notre technique ne souffre d’aucun défaut de performance prédictive, tout en sélectionnant un minimum d’instances. De plus, elle ne surapprend pas.
منابع مشابه
Une nouvelle approche pour la sélection de variables basée sur une métrique d'estimation de la qualité
Résumé. La maximisation d’étiquetage (F-max) est une métrique non biaisée d’estimation de la qualité d’une classification non supervisée (clustering) qui favorise les clusters ayant une valeur maximale de F-mesure d’étiquetage. Dans cet article, nous montrons qu’une adaptation de cette métrique dans le cadre de la classification supervisée permet de réaliser une sélection de variables et de cal...
متن کاملUne méthode optimale d'évaluation bivariée pour la classification supervisée
Résumé. En préparation des données pour la classification supervisée, les méthodes filtres usuellement utilisées pour la sélection de variables sont efficaces en temps de calcul. Néanmoins, leur nature univariée ne permet pas de détecter les redondances ou les interactions constructives entre variables. Cet article présente une nouvelle méthode permettant d'évaluer l'importance prédictive joint...
متن کاملSélection topologique de variables dans un contexte de discrimination
Résumé. En apprentissage automatique, la présence d’un grand nombre de variables explicatives conduit à une plus grande complexité des algorithmes et à une forte dégradation des performances des modèles de prédiction. Pour cela, une sélection d’un sous-ensemble optimal discriminant de ces variables s’avère nécessaire. Dans cet article, une approche topologique est proposée pour la sélection de ...
متن کاملUne sélection multiple des structures d'optimisation dirigée par la méthode de classification K-means
Résumé. Le volume d’information contenu dans un entrepôt de données s’accroît sans cesse, augmentant de ce fait le temps d’exécution des requêtes décisionnelles. Pour y remédier, l’administrateur doit, durant la phase de conception physique de l’entrepôt, effectuer une sélection de structures d’optimisation (index, vues matérialisées ou fragmentation), puis assurer leur gestion et maintenance. ...
متن کاملCaractérisation automatique des classes découvertes en classification non supervisée
Résumé. Dans cet article, nous proposons une nouvelle approche de classification et de pondération des variables durant un processus d’apprentissage non supervisé. Cette approche est basée sur le modèle des cartes auto-organisatrices. L’apprentissage de ces cartes topologiques est combiné à un mécanisme d’estimation de pertinences des différentes variables sous forme de poids d’influence sur la...
متن کامل